iT邦幫忙

第 12 屆 iThome 鐵人賽

DAY 12
0

好的,上一篇談到了自然語言處理對於詞句的處理方式,而這篇就針對由於近年急速攀升的深度學習而發展出的新的方法-詞向量,來稍作認識一下吧。
那什麼是詞向量呢?
就是能夠以一個向量來表示詞,可以分成one-hot encoding 和Word2Vec。
one-hot encoding:
方式就是假設要讀取「你好」,這樣就會利用兩個向量來表示,只有一個維度是1其餘的則為零。因此隨著要讀取的東西越多,需要的維度也越大,但是我們看不出來資料間彼此的關係。
舉例來說:****
你[1 0]
好[0 1]
Word2Vec:是一種分布假說,如果兩個前後文相似,而兩個中間的詞的意思就是相近的。
舉例來說:
「我們去美而美吃早餐」
「我們去拉亞吃早餐」
「我們去麥味登吃早餐」
目標詞就是美而美、拉亞、麥味登/前後詞就是我們、吃、早餐
這三句話都是要吃早餐,意思中間的那三間都是早餐店,如果再有下一句「我們去永和豆漿吃早餐」,這樣就能知道永和豆漿是早餐店了。不過這個方式可能還是會又有誤導的情況,所以還是要具備很多的句子,才能避免誤會。而例外舉例一些也有其他類似的情況,比方說像是「我們去老師家吃早餐」,但老師家不是早餐店的這種情形。

而訓練詞向量有兩種著名方式:
CBOW 模型:我們可以從前後詞他們的詞向量中,去預測出近似的詞,進而得到結果。
Skipgram 模型:我們會從已知的詞它的詞向量中,去預測出相對應近似的前後詞,來得到結果。
兩者互為相反的方法。

在使用詞彙而非詞向量時,可能語言上很多字詞意思是可以相通可以互相替換的,但是在使用詞彙的時候會把這兩個能相通的詞彙分作不一樣的,因此統計上就會造成些微的不準。
但使用詞向量的好處是因為是利用向量關係,因此當詞向量靠近的詞,就能推論得知說這兩個詞概略是有關連的。

參考資料:
https://research.sinica.edu.tw/nlp-natural-language-processing-chinese-knowledge-information/
https://www.coderbridge.com/@weifanhaha/0c71ef945cf14e2da414e4a31b1f4381
https://fgc.stpi.narl.org.tw/activity/videoDetail/4b1141305ddf5522015de5479f4701b1
https://aiacademy.tw/what-is-nlp-natural-language-processing/


上一篇
<Day11> The application of AI(下)
下一篇
<Day13>Talking about Deep Learning-CNN
系列文
了解Ai相關技術並展望其發展30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言